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主要 是 反 转 录 - 聚 合 酶 链 反 应 (Reverse Transcrip- 
tion-Polymerase Chain Reaction, RT-PCR), %& 
而 ， 样 本 采集 和 处理 的 复杂 性 、 检 测 结果 的 不 稳定 
性 、 检 测 成 本 的 高 易 性 、 检 测 范 玮 的 局 限 性 等 问题 
难以 在 葡萄 园 中 大 面积 推行 这 种 卷 叶 病 诊断 方 
法 中 。 因此， 需要 开发 更 准确 、 可 以 窗 盖 更 大 检测 
范围 的 卷 叶 病毒 检测 方法 ， 以 满足 葡萄 园 管理 的 
需求 。 

无 人 机 遥感 技术 广泛 应 用 于 作物 长 势 、 营 养 状 
况 、 病 虫害 等 监测 中 “。 同 时 ， 便 捷 、 廉 价 的 无 人 
机 遥感 数据 可 提供 近 实 时 的 数据 ， 为 农田 管理 和 决 
策 提供 依据 ， 如 灌溉 调度 、 施 肥 量 、 病 虫害 防治 
等 。 在 作物 病害 监测 方面 ， 利 用 无 人 机 遥感 数据 
结合 深度 学 习 方 法 ， 可 以 实现 小 麦 条 锈病 的 检测 以 
及 不 同 程度 的 分 类 天”"， 也 实现 了 水 稻 白 叶 枯 病 的 
检测 以 及 不 同 发 病 率 的 分 类 ，。 

样本 不 均衡 是 限制 无 人 机 遥感 识别 卷 叶 病 的 一 
个 关键 问题 。 葡 萄 园 冠 层 的 健康 、 轻 度 感染 、 重 度 
感染 样本 的 数量 存在 显著 差异 ， 导 致 深度 学 习 模 型 
在 训练 时 倾向 于 样本 数量 较 多 的 类 别 ， 而 忽视 样本 
数量 少 的 类 别 ， 从 而 降低 了 卷 叶 病 诊断 的 准确 率 和 
鲁 棒 性 "。 作 物 病 害 的 发 生 和 发 展 受 到 多 种 因素 
的 影响 ， 如 气候 条 件 、 土 壤 环境 、 病 原 种 类 、 传 播 
途径 等 ， 导 致 了 作物 病害 感染 程度 的 分 布 不 均 
名 '”。 同 时 ， 作 物 病害 的 防治 措施 也 会 影响 作物 
病害 感染 程度 的 分 布 ， 如 及 时 施用 农药 或 移 除 感染 
植株 ,会 减少 轻 度 或 重度 感染 的 样本 数量 。 

本 研究 探讨 了 使 用 无 人 机 遥感 和 深度 学 习 技术 
进行 冠 层 尺度 的 葡萄 卷 叶 病 感染 程度 诊断 的 方法 ， 
针对 卷 叶 病 不 同感 染 程度 类 别 不 平衡 的 问题 ， 通 过 
使 用 GANformer 生 成 多 样 化 的 图 像 数据 ， 使 用 Arc- 
Face 损 失 函 数 平衡 不 同类 别 的 权重 ， 以 及 使 用 不 同 
归 一 化 方法 和 通道 注意 力 机 制 的 Swin Transformer 
模型 进行 集成 ， 以 期 提高 对 葡萄 卷 叶 病 感染 程度 诊 
断 的 精度 。 


2 ”材料 与 方法 


2.1 无 人 机 遥感 数据 获取 和 处 理 
蛇 龙 珠 是 一 种 受 卷 叶 病 影响 严重 的 简 萄 品种 。 


以 蛇 龙 珠 为 研究 对 象 ， 在 宁夏 回族 自治 区 青铜 峡 市 
甘 城 子 镇 酿酒 葡萄 原 产 地 保护 区 西 铝 酒 庄 
(105.9242°E, 38.0714°N) 获取 田间 数据 。 使 用 的 
无 人 机 遥感 平台 为 大 对 精灵 4 RIK 版 。 在 北京 时 间 
2020 4F 10 A 9 H 12:00~14:00, HARIKA PHT K 
ITER. WEA Ih] AK 85%, HF BK 
75%。 无 人 机 的 飞行 高 度 为 60 m。 在 使 用 Pix4D 
mapper 进行 几何 校准 、 地 理 配 准 之 后 ， 处 理 无 人 机 


获取 的 原始 图 像 集 生 成 的 正 射影 像 空间 分 辨 率 为 每 
像素 1.74 cmo 


2.2 卷 叶 病 严 重 程度 评估 标准 


通过 田间 调查 的 方法 完成 酿酒 葡萄 卷 叶 病 带 病 
毒 株 的 调查 ， 评 估 了 调查 区 域内 的 采样 点 相应 的 葡 
萄 植株 是 否 患 病 ， 将 卷 叶 病 严 重 程度 评估 标准 分 为 
3 个 类 别 , 分别 是 健康 、 轻 度 和 重度 。 健 康 类 别 表 
示 植 株 没有 任何 卷 叶 病 的 症状 ; 轻 度 类 别 指 植株 不 
超过 二 分 之 一 的 叶片 有 卷 叶 病症 状 ; 重度 类 别 表示 
植株 有 二 分 之 一 以 上 的 叶片 有 卷 叶 病 症状 。 

使 用 RTK 手 持 机 记录 采样 点 的 地 理 信息 ， 采 用 
WGS-84 坐标 系 作为 定位 坐标 系 。 同 时 ， OR 
行 两 端点 的 地 理 坐 标 以 确定 葡萄 行 的 位 置 。 如 图 1 
所 示 ， 在 研究 区 域内 获取 1128 个 采样 点 信息 ， 其 中 
包括 鉴定 蛇 龙 珠 冠 层 健康 的 采样 点 130 个 ， 卷 叶 病 
为 轻 度 的 采样 点 377 个 ， 重 度 的 采样 点 621 个 。 


2.3 GANformer 模 拟 图 像 生 成 方法 


为 解决 数据 不 平衡 的 问题 ， 使 用 GANform- 
er ” 模型 来 生成 模拟 图 像 ， 以 增加 数据 集 的 多 样 
性 和 数量 。GANformer 是 一 个 基于 Transformer 的 
生成 对 抗 网 络 ， 可 以 生成 高 分 辨 率 和 多 样 性 的 图 
像 。GANformer 模 型 由 一 个 生成 器 G 和 一 个 判别 需 
D 组 成， 它们 之 间 进 行 对 抗 学 习 ， 模 型 结构 如 图 2 
所 示 。 
2.3.1 基于 GANformer 的 蛇 龙 珠 冠 层 模 拟 图 像 

生成 

为 使 用 GANformer 模 型 来 生成 模拟 图 像 ， 首 先 
将 每 个 类 别 的 数据 集 按 8 : 2 划分 为 训练 集 和 测试 
集 。 使 用 PyTorch 1.8.2 框架 实现 GANformer 模型 ， 
并 在 一 台 配 备 NVIDIA GeForce RTX 3090 GPU 的 计 
算 机 上 进行 训练 和 测试 。 输 入 一 个 512 维度 的 随机 
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Fig. 1 The location of field survey and grapevine canopy images of the grapevines with different levels infection in the vineyard of 


Xige Estate, Ningxia 
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图 2 GANformer 模 型 


Fig. 2 GANformer model overview 


噪声 向 量 到 生成 器 G， 输 出 一 个 分 辩 率 像素 为 
256X256 的 RGB KIR, EETA JAk D 输出 一 个 标 
量 值 表示 其 真实 性 概率 。 使 用 Adam 优化 器 进行 优 
化 ， 学 习 率 为 0.0002， 动 量 参 数 分 别 为 0.5 和 
0.999。 使 用 最 小 二 乘 损 失 (Least Squares Genera- 
tive Adversarial Networks, LSGAN) 4E X {h 2R ph 
Be), RY EF rade CUI RE, MA 88X 88 像素 
分 辨 率 开 始 ， 每 训练 100 个 epoch 就 增加 1 倍 的 分 辩 
率 ， 直 到 达到 256X256 像素 分 辨 率 。 每 个 分 辩 率 


的 前 50 个 epoch 使 用 平滑 过 渡 ， 以 避免 模式 崩 湿 的 
现象 。 在 训练 过 程 中 保存 了 每 个 分 辩 率 下 的 生成 器 
G 的 模型 参数 ， 并 在 测试 过 程 中 使 用 最 高 分 辩 率 下 
的 生成 器 G 的 模型 参数 。 
2.3.2 ”模型 评价 方法 

为 评价 GANformer 模 型 生成 模拟 图 像 的 效果 ， 
使 用 FID score 来 量化 真实 图 像 和 模拟 图 像 之 间 的 
差异 "“。 加 载 一 个 预 训练 的 Inception v3 模型 ， 并 
移 除 最 后 的 分 类 层 ， 将 最 后 一 个 池 化 层 的 输出 作为 
特征 向 量 。 对 真实 图 像 和 生成 图 像 分 别 计算 它们 的 
特征 向 量 ， 并 将 它们 分 别 拟 合 为 一 个 多 维 高 斯 分 
布 ， 得 到 它们 的 均值 和 协 方差 矩阵 。 最 后 ， 计 算 两 
AS i roy Fi NA AY IB E BBS", AS (1) 
计算 。 

FID score = |u, - u |P + Tr(£, +g,- 2(5,5,}) 

(1) 

其 中 , jy, 和 j, 分 别 是 真实 图 像 和 生成 图 像 的 特 
征 向 量 的 均值 ; 2, 和 马 分 别 是 真实 图 像 和 生成 图 
像 的 特征 癌 量 的 协 方差 矩阵 ; Tr RIRE EXTA R 
元 素 之 和 。 


2.4 基于 Transformer 的 严重 程度 诊断 模型 


为 评估 蛇 龙 珠 卷 叶 病 的 严重 程度 ， 本 研究 使 用 
一 种 基于 Transformer 的 深度 学 习 分 类 网 络 模 型 ， 称 
为 CA-Swin Transformer。 该 模型 是 在 Swin Trans- 
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former |"*) 的 基础 上 进行 改进 ， 增 加 通道 注意 力 机 
制 和 实例 归 一 化 层 ， 同 时 使 用 ArcFace 损失 函数 ， 
以 提高 模型 对 蛇 龙 珠 冠 层 图 像 的 细 粒 度 特征 提取 和 


下 采样 能 
如 图 3 所 示 。 


。 改 进 后 的 CA-Swin Transformer 结构 


x \ Ww 
> N 2N x2 次 


CA-Swin Transformer Block 


fll yy 


W-MSA 


| CA Block Feature ` 


GAP GMP 


Eo a a 


Sigmoid Q 


图 3 改进 后 的 CA-Swin Transformer 24 #49 


Fig. 3 The network architecture of the improved CA-Swin Transformer 


2.4.1 CA-Swin Transformer 模 型 

考虑 到 采集 的 蛇 龙 珠 病害 数据 集 的 规模 较 小 ， 
本 人 研究 选用 Swin Transformer tiny， 将 输入 图 像 划分 
为 4X4 的 小 块 ， 在 每 个 小 块 上 使 用 7X7 大 小 的 窗 
口 来 计算 自 注 意 力 。 共 有 4 个 阶段 ， 每 个 阶段 包含 
的 Transformer layer 的 数量 分 别 为 2、2、6、2; 每 
个 变换 器 层 使 用 的 多 头 注 意 力 的 头 数 分 别 为 3、6、 
12、24; 多 层 感知 器 的 隐藏 层 大 小 与 输入 层 大 小 的 
比例 设置 为 4。 在 蛇 龙 珠 数据 集 上 进行 训练 ， 输 入 
图 像 的 分 辩 率 为 224X224 像 素 。 

为 提高 图 像 分 类 模型 的 性 能 ， 本 研究 使 用 两 种 
不 同 的 归 一 化 层 : 实例 归 一 化 层 (Instance Normal- 
IN) 和 层 归 一 化 层 (Layer Normal- 
LN) ”。 实 例 归 一 化 层 是 对 每 个 通 
道 进行 归 一 化 操作 ， 从 而 减少 通道 间 的 差异 ， 并 增 
强 特征 图 的 对 比 度 ; 层 归 一 化 层 是 对 整个 样本 进行 
归 一 化 操作 ， 从 而 捕捉 不 同 通 道 之 间 的 相关 性 ， 并 
增强 特征 图 的 表达 能 力 。 将 这 两 种 归 一 化 层 分 别 应 
用 于 Swin Transformer 模 型 中 ， 并 在 蛇 龙 珠 数据 集 
上 进行 实验 。 

此 外 ， 本 研究 还 在 每 个 Transformer 层 后 增加 一 
个 通道 注意 力 机 制 (Channel Attention, CA), HF 
提取 不 同 通道 之 间 的 相关 性 ， 并 增强 特征 网 的 表达 


ization Layer, 


ization Layer, 


能 力 。 通 道 注意 力 机 制 由 两 个 全 连接 层 和 一 个 激活 
函数 组 成 ， 如 公式 (2) 所 示 。 

y = 0(W,6(W,x)) (2) 

其 中 ,x 为 输入 特征 图 ; y 为 输出 特征 图 ; W, 
和 WW, 为 全 连接 层 的 权重 和 矩阵 ; 6 为 GELU 激活 也 
数 ; ote Sigmoid 激 活 函 数 。 将 输出 特征 图 与 输入 
特征 图 相 乘 ， 得 到 经 过 通道 注意 力 机 制 调整 后 的 特 
征 图 。 将 这 种 改进 后 的 Swin Transformer 模 型 称 为 
CA-Swin Transformer。 
2.4.2 ”实施 细节 

为 准确 测试 模型 的 泛 化 能 力 ， 使 用 留 出 法 首先 
划分 出 测试 集 。 测 试 集中 健康 、 轻 度 卷 叶 病 、 重 度 
卷 叶 病 的 样本 数量 分 别 为 48、148、141。 为 保证 训 
练 集 和 验证 集 的 数据 分 布 一 致 性 ， 按 照 8 : 2 的 比 
例 ， 分 别 对 冠 层 健康 、 轻 度 、 重 度 每 个 类 别 随 机 划 
分 了 原始 数据 集 为 训练 集 、 验 证 集 。 从 图 1 中 可 以 
发 现 ， 原 始 数据 集 存 在 明显 的 类 别 不 平衡 问题 ， 即 
重度 卷 叶 病 样本 的 数量 远 多 于 健康 和 轻 度 卷 叶 病 样 
本 的 数量 。 这 会 导致 模型 在 训练 过 程 中 对 重度 卷 叶 
病 样本 过 拟 合 ， 而 对 其 他 类 别 样本 欠 拟 合 ， 从 而 降 
低 模型 在 细 粒 度 分 类 任务 上 的 泛 化 能 力 。 为 缓解 类 
别 不 平衡 问题 ， 使 用 2.3 小节 中 GANsFormer 模 型 
来 生成 模拟 图 像 ， 并 将 其 与 原始 图 像 混合 ， 从 而 增 
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强 训练 集 的 数据 量 和 多 样 性 。 使 用 GANsFormer 分 
别 为 健康 、 轻 度 卷 叶 病 及 重度 卷 叶 病 类 别 生成 920、 
773 和 522 张 模拟 图 像 ， 并 将 其 与 原始 图 像 合并 ， 
使 得 每 个 类 别 的 训练 样本 数量 都 达到 1002 张 。 

使 用 PyTorch 框架 实现 CA-Swin Transformer Px 
型 ， 并 在 NVIDIA GeForce RTX 3090 GPU 上 进行 训 
练 和 测试 。 使 用 Adam 优化 器 来 优化 模型 参数 ， 并 
设置 初始 学 习 率 为 0.001， 权 重 衰减 为 0.0001。 使 
用 余弦 退火 策略 来 调整 学 习 率 ， 并 设置 最 小 学 习 率 
为 5Xx10“ 并 设置 批 大 小 为 32， 训 练 轮 数 为 100 轮 。 
使 用 早 停 法 来 防止 模型 过 拟 合 ， 并 设置 验证 间隔 为 
10， 容 忍 度 为 5。 

Sy Jill AE FA ZE SL Ra Fit FE PK BK (Cross Entropy, 
CE). Focal ti eh °° All ArcFace fit & ph BE 7") HE 
Th Fe Be AY AY a R o 3E X RA FE PR CY HE A N 
AA (3)。 


1 A 
Les = 3D): logy; (3) 
i= 


其 中 ，Ze 为 交叉 粒 损 失 ; N 为 样本 数 ， 个 ; y 
为 第 i 个 样本 的 真实 标签 ; 7 了 ;为 第 i 个 样本 的 预测 
概率 。 

ArcFace 损 失 了 水 数 在 交叉 烂 损 失 孔 数 的 基础 上 
增加 一 个 角度 边界 ， 从 而 增强 了 类 内 紧密 性 和 类 间 
差异 性 ”。ArcFace 损 失 函 数 的 定义 为 公式 (4). 


1 N s(cos (0, +m)) 
L aiopace = -N > log n (4) 
i=l eer, +m)) J > er 


Ja LS*Y; 


HEP, Lycre AI ArcFace 损 失 ; s AFF IE [a] at AY 
RR; 0 为 第 ;个 样本 的 特征 向 量 和 第 7 个 类 别 的 权 
重 向 量 之 间 的 角度 ; m 为 一 个 超 参 数 ， 表 示 角 度 
边界 。 

Focal 损失 函数 通过 给 难 分 类 的 样本 赋予 更 大 
的 权重 ， 从 而 降低 了 易 分 类 的 样本 对 损失 函数 的 贡 
献 的 。Focal 损 失 函 数 的 定义 为 公式 (5)。 


1% P A 
Das 0 = yi) yi logy; (5) 
i=l 


HEP, Loa A Focal it; ”为 一 个 超 参 数 ， 表 
示 难 易 分 类 样本 的 调节 因子 。 
2.4.3 ”模型 评价 方法 

为 评价 CA-Swin Transformer 模型 在 蛇 龙 珠 卷 
叶 病 严重 程度 评估 任务 上 的 性 能 ， 使 用 准确 率 


(Accuracy), AEX (Recall) 、 精 确 率 (Precision) 
DIR F AX (F -Score) 4 种 评价 指标 。 准 确 率 表示 
模型 预测 正确 的 样本 数 占 总 样本 数 的 比例 ; A 
表示 模型 预测 正确 的 正 样本 数 占 实际 正 样本 数 的 比 
例 ; 精确 率 表 示 模 型 预测 正确 的 正 样本 数 占 预测 为 
正 样 本 数 的 比例 ; 已 -Score 表示 准确 率 和 召回 率 的 
调和 平均 值 ， 用 于 综合 评价 模型 的 性 能 。 在 混淆 算 
阵 中 ， 当 预测 值 和 标签 真 值 均 为 真 时 ， 即 为 预测 为 
真 的 正 样 本 (True Positives, TP); 当 标 签 真 值 为 
真 ， 预 测 值 为 假 时 ， 即 为 预测 为 假 的 负 样 本 
(False Negatives, FN); 当 标 签 真 值 为 假 ， 预 测 值 
为 真 时 ， 即 为 预测 为 假 的 正 样本 (False Positives, 
FP); 当 标 签 真 值 为 假 ， 预 测 值 为 假 时 ， 即 为 预测 
为 真 的 负 样 本 (True Negatives，TN)。 本 研究 分 别 
计算 了 每 个 类 别 的 准确 率 〈 公 式 (6) ) 、 精 确 率 
(公式 (7) ) BEX (公式 (8) ) MF 
(公式 (9) )， 以 及 所 有 类 别 的 平均 值 。 


TP + TN 
_ x : 
Accuracy TP + TN + FP + FN 100% (6) 
L 
2 
Precision = 二 -一 1 (7) 
|L 
L 
ma 
Recall = = 7 (8) 
[L] 
F,-Score=2 X Precision weignea x Recall ,cignea (9) 
Preciosn yeigntea + Recall weignea 


其 中 ，w 为 类 别 数目 权重 ; 工 为 类 别 数目 。 

使 用 混 涌 和 矩阵 来 展示 模型 在 每 个 类 别 上 的 预测 
结果 ， 以 及 真实 标签 和 预测 标签 之 间 的 一 致 性 。 混 
消 矩 阵 的 行 表示 真实 标签 ;列表 示 预 测 标签 ;对 有 朋 
线 上 的 元 素 表 示 预 测 正确 的 样本 数量 ; 非 对 角 线 上 
的 元 素 表 示 预 测 错误 的 样本 数量 。 


2.5 葡萄 园 卷 叶 病 严重 程度 分 布 制图 方法 


为 展示 简 萄 园 卷 叶 病 严 重 程度 的 分 布 情况 ， 采 
用 滑动 窗口 的 方法 ， 从 正 射 影像 中 提取 了 蛇 龙 珠 冠 
层 的 图 像 和 标签 。 具 体 实 施 过 程 如 图 4 所 示 。 

根据 葡萄 行 的 两 端 位 置 确定 滑动 窗口 的 轨道 ， 
两 端点 确定 了 和 葡 葡 行 所 在 直线 方程 。 如 图 4 所 示 ， 
红色 的 线段 表示 和 葡萄 行 的 轨道 ;黑色 的 点 表示 葡萄 
行 的 两 端 位 置 。 根 据 葡 萄 株 间 距 (1 m) 得 到 了 间 
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(a) 在 田 块 尺度 使 用 滑动 窗口 轨道 


| 一 一 轨道 两 端点 

| 轨道 

| 带动 窗口 

| 一 一 名 动 窗口 中 心 点 


(b) 滑 动 窗口 冠 层 分 布 细节 


图 4 在 田 块 尺度 使 用 滑动 窗口 遍历 蛇 龙 珠 冠 层 


Fig. 4 Grapevine canopy detection with slide windows at the field scale 


隔 的 像素 个 数 。 蓝 色 的 点 表示 每 株 葡萄 的 中 心 位 
置 。 根 据 株 距 确 定 滑动 窗口 大 小 为 115 X115 像 素 确 
定 滑 动 窗口 的 位 置 。 记 录 滑 动 窗口 的 中 心 点 横 坐 标 
Xx， 中 心 点 纵 坐 标 y， 窗 口 长 度 及 宽度 。 中 心 点 坐标 
为 正 射影 像 上 的 图 像 坐标 。 如 图 4 所 示 ， See 
形 表示 滑动 窗口 的 范围 。 

从 正 射 影像 中 截取 每 个 窗口 内 的 图 像 ， 根 据 田 
间 调 查 数 据 给 每 个 窗口 内 的 图 像 赋予 标签 。 田 间 调 
查 时 对 调查 区 域内 的 采样 点 相应 的 葡萄 植株 是 否 患 
病 进行 评估 ， 并 记录 相应 的 位 置信 息 。 

在 应 用 时 ， 对 由 无 人 机 图 像 生成 的 正 射影 像 进 
行 滑动 窗口 操作 。 设 1 为 输入 的 RGB 图 像 ， 其 大 小 
为 M X HX 3, HP MAA ATI ER KI E BEA 
宽度 ; 3 为 图 像 的 通道 数 。 首 先 将 7 转换 为 YCbCr 
颜色 空间 ， 得 到 7， 其 大 小 也 为 M X H X 3， 然 后 
得 到 以 下 3 个 阔 值 (公式 (10) ~ (12) ): 

T, =(0.000, 0.504, 0.000, 0.504, 0.504, 1.000) (10) 

T, = (0.173, 0.647, 0.157, 0.635, 0.055, 0.478) (11) 

T, = (0.122, 0.162, 0.247, 0.473, 0.290, 0.635) (12) 

HER, TAA BEE RAS BAL; T, 为 用 
FO FHA BRAY BOE; T HATOR SEI ye DK Sek 
WR. ASA SS 3 Si Ma RAK 
值 。 然 后 ， 使 用 公式 (13) 来 计算 每 个 像素 是 否 属 
于 土壤 区 域 。 


1(i,j,1)elT(1), 7.(2)] 
BW (i,)) = 1 if47(i,7,2)e[7T(3),7T(4)] 
= 1(i,j,3)el7T(5),7,(6)] 
0 otherwise 
(13) 


其 中 ，BWW, 为 一 个 二 值 矩 阵 ， 其 大 小 为 M X 
H, 表示 每 个 像素 是 否 属于 土壤 区 域 ，1 表示 
“E, ORR “R”; (i, 门 表示 像素 的 坐标 ; 
(i, 7，1) 表 示 像 素 在 了 通道 上 的 值 ; (i, j，2) 表 示 
像素 在 Cb 通道 上 的 值 ; (i，j，3) 表 示 像 素 在 Cr 通 
道上 的 值 。 

最 后 ， 使 用 公式 (14) 来 计算 土壤 区 域 所 占 的 
比例 。 

SS BW (ii) 


Poot = MH (14) 


其 中 ，P,i 为 一 个 介 于 0 和 1 之 间 的 数值 ， 表 示 
土壤 区 域 所 占 的 比例 。 如 果 P,, 大 于 一 个 预 设 的 冰 
fic (r= 0.3)， 则 认为 窗口 内 没有 冠 层 或 冠 层 覆盖 
度 很 低 ; 如 果 Pi 小 于 或 等 于 tr， 则 认为 窗口 内 有 冠 
层 。 将 判定 有 冠 层 的 区 域 送 入 深度 学 习 网 络 中 进行 
分 类 预测 ， 得 到 每 个 窗口 内 图 像 的 预测 标签 。 然 
后 ,根据 预测 标签 将 滑动 窗口 中 心 点 显示 出 不 同 颜 
色 ， 代 表 诊 断 结果 。 诊 断 结束 后 将 预测 结果 的 Py- 
thon 对象 转 换 为 shapefile 文 件 ， 并 使 用 QGIS 软件 
完成 制图 。 


3 结果 与 讨论 


3.1 基于 GANformer 增 强 卷 叶 病 严重 程度 诊 
断 精度 

GANformer 模 拟 图 像 生成 效果 
图 5 显示 了 GANformer 模 拟 图 像 生 成 过 程 中 
FID score 随 训练 步 数 变化 的 曲线 。 从 图 5 中 可 以 看 
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出 FID score 从 初始 值 518.81 下 降 到 最 终 值 
102.60， 在 1392 步 左右 达到 最 低 点 〈93.20) ， 并 在 
后 续 波 动 稳定 。 这 说 明 GANformer 可 以 在 较 少 的 训 
练 步 数 下 生成 高 质量 和 多 样 性 的 图 像 。 

图 6 显示 了 GANformer 模 拟 图 像 生 成 效果 中 真 
实 图 像 和 模拟 图 像 在 不 同 训练 步 数 下 的 视觉 对 比 。 
从 图 6 中 可 以 看 出 ，GANformer 生 成 的 图 像 在 视觉 
上 与 真实 图 像 非常 接近 ， 能 够 保留 原始 图 像 中 的 颜 
色 、 纹 理 、 形 状 等 细节 ， 并 且 能 够 生成 不 同 的 卷 叶 
病 严 重 程度 的 图 像 。 
3.1.2 ”模拟 图 像 对 分 类 精度 的 影响 

本 研究 使 用 8 个 不 同 的 模型 来 对 原始 数据 集 和 
增强 数据 集 进 行 分 类 训练 ， 分 别 是 GoogLeNet *', 
MobileNetV2 2 、NasNet Mobile '*’, ResNet18 25 、 
ResNet50 °”. CVT. T2TViT °” 和 Swin Trans- 
former ""。 这 些 模型 包括 了 卷 积 神经 网 络 、 注 意 力 
机 制 Transformer 等 不 同 的 网 络 结构 。 本 研究 使 用 
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步 数 
图 5 酿酒 葡萄 冠 层 无 人 机 送 感 模拟 图 像 生 成 方法 研究 
GANformer 训 练 过程 中 FID score 下降 曲 线 
Fig. 5 FID score curve during GANformer training process for 


grapevine canopy simulated UAV image generation 


了 准确 率 来 评估 不 同 模型 上 的 分 类 效果 ， 图 7 显示 
了 不 同 模型 在 原始 数据 集 和 增强 数据 集 上 的 准 
确 率 。 


1500 2000 2500 3000 


图 6 GANformer 模 拟 图 像 生 成 过 程 


Fig. 6 The image generation process of GANformer simulation 


从 图 7 中 可 以 看 出 ， 增 强 数据 集 上 的 准确 率 普 
遍 高 于 原始 数据 集 上 的 准确 率 ， 说 明 GANformer 和 后 
成 的 图 像 对 于 提升 分 类 效果 有 正面 的 影响 。 一 般 来 
说 ， 为 了 适应 移动 设备 而 设计 的 模型 (如 
GoogLeNet 和 MobileNetV2) ， 在 低 分 辩 率 图 像 上 表 
现 良 好 ; 而 为 了 适应 高 分 辩 率 的 图 像 而 设计 的 模型 
(如 NasNet Mobile 和 ResNet18) ， 则 可 以 在 细节 丰 
定 和 复杂 的 图 像 上 表现 优异 ; 而 使 用 Transformer 结 
构 的 模型 (如 CVT、T2TViT、Swin Transformer)， 
则 可 以 更 好 地 利用 GANformer 生 成 的 图 像 中 的 特征 


和 信息 ， 从 而 在 复杂 环境 的 图 像 上 表现 出 色 。 
同时 ， 从 图 7 中 可 以 看 出 ， 相 比 于 使 用 卷 积 神 
经 网 络 (Convolutional Neural Networks, CNN) 结 
构 的 模型 (如 GoogLeNet、ResNet 等 )， 基 于 Trans- 
former 的 深度 学 习 模型 在 卷 叶 病 严重 程度 分 类 的 问 
题 上 更 具备 优势 。 这 也 验证 了 不 同 模型 对 于 GAN- 
former 生 成 的 图 像 有 不 同 的 适应 性 。 最 佳 的 模型 是 
Swin Transformer， 在 原始 数据 集 的 测试 集 上 达到 
80.11%。Swin Transformer 模 型 在 增强 数据 集 上 的 
准确 率 为 83.97%， 比 原始 数据 集 上 提高 3.86%。 
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图 7 使 用 GANformer 增 强 酿酒 葡 欧冠 层 无 人 机 逐 感 图 像 数据 前 后 深度 学 习 分 类 结果 对 比 


Fig. 7 Comparison of deep learning classification results before and after using GANformer to enhance data for grapevine canopy 


Simulated UAV image generation 


为 进一步 分 析 GANformer 模 拟 图 像 生成 效果 ， 
本 研究 使 用 ! 分 布 随机 邻 域 嵌入 (t-Distributed Sto- 
chastic Neighbor Embedding, t-SNE) 对 学 习 到 的 特 
征 进行 了 可 视 化 。 使 用 Swin Transformer 提 取 了 真 
实 图 像 和 模拟 图 像 的 特征 ， 并 使 用 上 SNE 将 它们 降 
维 到 二 维 空间 中 ”。 图 8 显示 了 SNE 对 学 习 到 的 
特征 进行 可 视 化 的 结果 。 
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图 8 酿酒 葡萄 冠 层 无 人 机 逐 感 模拟 图 像 生 成 方法 研究 基于 
t-SNE 对 模型 学 习 到 的 冠 层 细 粒度 特征 进行 降 维 显示 
Fig. 8 Dimensionality reduction display of canopy fine- 

grained- features learned from the model based on t-SNE for 


grapevine canopy simulated UAV image generation 


从 图 8 中 可 以 看 出 ， 真 实 图 像 和 模拟 图 像 的 特 
征 在 二 维 空间 中 有 明显 的 聚 类 和 分 离 效 果 ， 说明 
GANformer 学 习 到 的 特征 具有 良好 的 结构 和 分 布 。 
真实 图 像 和 模拟 图 像 在 同一 类 别 下 的 特征 有 较 高 的 
相似 度 ， 说 明 GANformer 生 成 的 图 像 能 够 保持 原始 
图 像 中 的 类 别 信息 。 
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3.2 CA-Swin Transformer 诊 断 结 果 分 析 
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表 1 显 示 了 不 同 模型 和 方法 在 测试 集 上 的 分 类 
精度 ， 其 中 最 高 的 精度 用 粗 体 标 出 。 从 表 中 可 以 看 
H, EM ArcFace (RE 26 Wi dit FE eR BAT WA SE Ft 
1.50% 的 分 类 精度 ， 再 使 用 IN 作为 归 一 化 方法 时 ， 
可 再 提升 0.30% AY HEDGE. AMEA BIE A 
函数 ， 使 用 IN 比 使 用 LN 提升 1.20% 的 准确 率 。 而 
使 用 ArcFace 损 失 函 数 、 实 例 归 一 化 和 通道 注意 力 
机 制 的 CA-Swin Transformer 模 型 在 测试 集 上 达到 
了 最 高 的 分 类 精度 ， 为 86.65%， 比 原始 的 Swin 
Transformer 模 型 提高 2.69%。 这 说 明 使 用 这 些 方法 
可 以 有 效 地 提高 模型 对 蛇 龙 珠 卷 叶 病 严重 程度 的 识 
别 能 

图 9 显示 了 CA-Swin Transformer 模 型 在 测试 集 
上 的 混淆 矩阵， 其 中 每 个 单元 格 表示 预测 类 别 和 真 
实 类 别 的 匹配 情况 ,颜色 越 深 表示 匹配 程度 越 高 。 
从 图 9 中 可 以 看 出 ， 尺 管 测试 集 的 类 别 数量 不 平 
(ii, 使 用 ArcFace 损 失 函 数 、 实 例 归 一 化 和 通道 注 
意 力 机 制 的 CA-Swin Transformer 模型 在 测试 集 上 
有 最 多 的 深 色 单元 格 ， 说 明 它 能 够 更 准确 地 将 图 像 
分 为 健康 、 轻 度 卷 叶 病 和 重度 卷 叶 病 3 个 类 别 。Ar- 
cFace 损 失 函 数 是 一 种 基于 角度 边界 的 损失 函数 ， 
它 可 以 增强 特征 空间 中 类 别 之 间 的 区 分 度 ， 提 高 分 
类 效果 。 相 比 于 传统 的 交 又 炉 损 失 了 水 数 ，ArcFace 
损失 函数 可 以 更 好 地 处 理 数据 不 平衡 和 类 内 方差 大 
等 问题 ， 这 一 优势 也 体现 在 本 研究 的 实验 结果 中 。 

为 更 详细 地 分 析 每 个 卷 叶 病 感 染 类 别 的 分 类 性 
能 ， 表 2 展示 了 不 同 的 模型 和 方法 在 测试 集 上 不 同 
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表 1 不 同 改进 方法 在 测试 集 上 的 分 类 效果 


Table 1 Classification results of different improved methods on the test set 


模型 损失 函数 归 一 化 方法 Precision Recall Accuracy/% F -Score 
Swin Transformer ELHA LN 0.8415 0.8398 83.96 0.8401 
Swin Transformer Focal LN 0.8445 0.8427 84.27 0.8432 
Swin Transformer ArcFace LN 0.8598 0.8546 85.46 0.8548 
Swin Transformer Ze SUN IN 0.8623 0.8516 85.16 0.8509 
Swin Transformer ArcFace IN 0.8621 0.8576 85.76 0.8573 
CA-Swin Transformer ArcFace IN 0.8692 0.8665 86.65 0.8669 
. 类 别 的 分 类 结果 。 
#2 CA-Swin Transformer 诊 断 结果 测试 集中 不 同 卷 叶 病 
ia 感染 类 别 的 分 类 效果 


Table 2 CA-Swin Transforme classification results of different 


80 


grapevine leafroll disease infection categories of the test set 


Ihe RS 


等 级 Precision Recall F -Score 
p4 健康 1.0000 0.9375 0.9677 
= à 7 Pe 轻 度 0.8721 0.8226 0.8467 
重度 0.8238 0.8851 0.8534 
: ne 全 
at ua 健康 = =i x 
remit 图 10 显 示 了 基于 Grad-CAM 的 不 同 模型 和 方法 


图 9 卷 叶 病 严重 程度 诊断 的 CA-Swin Transformer WIRI A 4E E 对 应 3 个 卷 叶 病 感染 类 别 的 类 激活 图 ， 其 中 每 个 子 
Fig. 9 CA-Swin Transformer confusion matrix on test for grape- 图 表示 模型 对 一 个 测试 图 像 的 分 类 结果 和 类 激活 区 
vine leafroll disease severity infection diagnosis 域 ， 颜色 越 红 表示 区 域 越 重要 1。 


健康 


Swin Iransfomer 


图 10 基于 Grad-CAM 显示 改进 模型 过 程 中 的 类 激活 图 


Fig. 10 Class activation diagram based on Grad-CAM display model improvement 


从 图 10 中 可 以 看 出 ， 使 用 ArcFace 损 失 函 数 、 它 能 够 更 好 地 捕捉 图 像 中 的 细节 和 语义 信息 ， 从 而 
Instance 归 一 化 和 通道 注意 力 机 制 的 CA-Swin Trans- 提高 分 类 效果 。 相 反 ， 原 始 的 Swin Transformer $R 
former 模 型 在 类 激活 图 上 有 最 多 的 红色 区 域 ， 说 明 型 在 类 激活 图 上 有 较 少 的 红色 区 域 ， 说 明 它 有 较 多 
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的 分 类 错误 。 相 比 于 没有 使 用 通道 注意 力 机 制 的 模 
型 ， 使 用 通道 注意 力 机 制 的 模型 可 以 更 好 地 捕捉 图 
像 中 的 细节 和 语义 信息 ， 提 高 模型 的 识别 能 力 。 但 
是 ,通道 注意 力 机 制 会 增加 模型 的 计算 量 和 参数 
量 ， 降 低 模型 的 效率 。 

针对 分 类 类 别 不 平衡 的 问题 ， 本 研究 尤其 关注 
模型 在 数量 较 少 的 类 别 上 学 习 到 的 特征 。 从 图 10 
中 可 以 看 出 ，CA-Swin Transformer 模 型 能 够 准确 地 
将 轻 度 、 重 度 感染 卷 叶 病 的 蛇 龙 珠 冠 层 区 分 出 来 ， 
并 且 在 类 激活 图 上 显示 出 整个 冠 层 区 域 都 是 重要 
的 。 相 比 于 其 他 模型 ， 在 轻 度 和 重度 卷 叶 病 类 别 上 
也 有 较 高 的 分 类 性 能 ，F 分 数 分 别 达 到 0.8467 和 
0.8534。 从 表 2 可 以 看 出 ，CA-Swin Transformer 模 
型 分 数 在 健康 类 别 上 达到 0.9677， 这 说 明 该 模型 
能 够 将 健康 植株 与 感染 卷 叶 病 的 植株 区 分 开 来 。 这 
一 结果 与 图 10 中 的 类 激活 图 是 一 致 的 ， 因 为 CA- 
Swin Transformer 模型 在 健康 类 别 上 只 关注 了 和 冠 层 
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在 健康 类 别 图 像 上 显示 阴影 处 是 最 重要 的 ， 而 使 用 
Focal 损 失 函 数 则 显示 冠 层 的 边缘 是 最 重要 的 ， 使 
用 ArcFace 损 失 函 数 、 实 例 昭 一 化 方法 帮助 了 在 轻 
度 样 本 上 的 学 习 ， 然 而 在 健康 样本 上 却 显示 冠 层 和 
阴影 都 是 很 重要 的 ， 没 有 区 分 出 最 重要 的 特征 。 本 
研究 的 实验 结果 证 明 ， 使 用 通道 注意 力 机 制 可 以 帮 
助 基于 Transformer 的 分 类 模型 在 数量 较 少 的 困难 样 
本 上 学 习 到 最 重要 的 特征 。 


3.3 葡萄 园 卷 叶 病 严重 程度 分 布 


图 11 显示 了 使 用 本 研究 所 提 方 法 制作 的 葡萄 园 
蛇 龙 珠 感染 严重 程度 分 布 图 。 使 用 滑动 窗口 的 方法 
来 提取 和 葡萄 园 冠 层 的 图 像 和 标签 ， 将 提取 的 图 像 送 
入 训练 好 的 CA-Swin Transformer 网 络 中 进行 分 类 
预测 ， 得 到 每 个 窗口 内 图 像 的 预测 标签 。 根 据 预 测 
标签 将 滑动 窗口 中 心 点 显示 出 不 同 颜色 ， 代 表 诊 断 
结果 和 莓 红色 表示 重度 卷 叶 病 ， 湖 蓝 色 表示 轻 度 卷 叶 
病 ， 黄 色 表示 健康 。 图 11 使 用 1 : 1250 的 比例 尺 来 


区 域 ， 而 忽略 了 其 他 无 关 的 区 域 ， 从 而 提高 了 分 类 
效果 。 相 比 于 其 他 模型 ， 初 始 的 Swin Transformer 


38°2'56'N 


38°2'53°N 


显示 葡萄 园 的 空间 分 布 情况 ， 为 葡萄 园 卷 叶 病 的 防 
治 提供 了 空间 参考 。 


图 11 基于 CA-Swin Transformer 的 葡萄 园 蛇 龙 珠 卷 叶 病 严重 程度 分 布 


Fig. 11 Grapevine canopy detection with slide windows at the field scale based on CA-Swin Transformer 


本 研究 通过 制作 葡萄 园 卷 叶 病 严重 程度 分 布 
图 ,发现 : (1) 卷 叶 病 主要 分 布 在 葡萄 园 中 部 和 西 
部 区 域 ， 东 部 区 域 蛇 龙 珠 重度 感染 的 数量 少 于 西部 
区 域 。(2) 卷 叶 病 严重 程度 与 葡 葡 行 之 间 存 在 一 定 
的 相关 性 ， 蛇 龙珠 感染 卷 叶 病 重度 数量 较 多 的 区 域 


越 容 易 出 现 缺 株 、 弱 株 情 况 。(3) 卷 叶 病 严重 程度 
与 简 萄 株 之 间 也 存在 一 定 的 差异 。 一 般 来 说 ， 和 葡萄 
行内 部 或 两 端的 葡萄 株 卷 叶 病 严重 程度 较 高 ， 而 葡 
萄 行 中 间或 边缘 的 葡萄 株 卷 叶 病 严重 程度 较 低 。 
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4 结 论 


本 研究 以 蛇 龙 珠 为 例 ， 探 讨 了 使 用 无 人 机 遥感 
技术 和 深度 学 习 进 行 冠 层 尺 度 的 卷 叶 病 感染 程度 诊 
断 的 方法 ， 主 要 结论 如 下 。 

(1) 针对 蛇 龙 珠 卷 叶 病 不 同感 染 程 度 类 别 不 平 
衡 的 问题 ， 提 出 了 一 种 基于 GANformer 的 数据 增强 
方法 。 该 方法 可 以 生成 蛇 龙 珠 冠 层 模拟 图 像 ， 从 而 
增加 了 数据 集 的 多 样 性 ， 缓 解 了 类 别 不 平衡 的 问 
题 。 实 验 结果 证 明了 该 增强 方法 将 Swin Transform- 
er 在 卷 叶 病 不 同感 染 程度 的 分 类 精度 提升 3.86%。 

(2) 针对 无 人 机 遥感 图 像 分 类 任务 的 特点 ， 提 
出 一 种 基于 CA-Swin Transformer 的 图 像 分 类 方法 。 
该 方法 通过 引入 通道 注意 力 机 制 来 增强 特征 表达 能 
力 ， 提 高 了 模型 的 识别 性 能 。 相 比 于 Swin Trans- 
former, CA-Swin Transformer 模 型 将 分 类 精度 提高 
了 2.69%。 

(3) 针对 蛇 龙 珠 卷 叶 病 感染 程度 分 布 图 的 制作 
和 需求， 提出 了 一 种 基于 滑动 窗口 和 CA-Swin Trans- 
former 模 型 的 方法 。 该 方法 通过 提取 和 葡萄 园 冠 层 的 
图 像 和 标签 ， 送 入 训练 好 的 CA-Swin Transformer 
网 络 中 进行 分 类 预测 ， 得 到 每 个 窗口 内 图 像 的 预测 
标签 ， 并 根据 预测 标签 将 滑动 窗口 中 心 点 显示 出 不 
同 颜色 ， 代 表 诊 断 结 果 。 使 用 本 研究 所 提 方 法 制作 
的 蛇 龙 珠 卷 叶 病 严重 程度 分 布 图 ， 可 以 清晰 地 反映 
出 葡萄 园 内 不 同 区 域 、 不 同行 列 、 不 同 株 间 的 卷 叶 
病 感染 情况 ， 为 葡萄 园 提 供 了 卷 叶 病 防 治 和 精准 化 
管理 的 依据 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公 
研究 成 果 有 关 的 利益 冲突 。 
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Abstract: 


[Objective] Wine grapes are severely affected by leafroll disease, which affects their growth, and reduces the quality of the color, 


taste, and flavor of wine. Timely and accurate diagnosis of leafroll disease severity is crucial for preventing and controlling the dis- 


ease, improving the wine grape fruit quality and wine-making potential. Unmanned aerial vehicle (UAV) remote sensing technology 


provides high-resolution images of wine grape vineyards, which can capture the features of grapevine canopies with different levels of 


leafroll disease severity. Deep learning networks extract complex and high-level features from UAV remote sensing images and per- 
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form fine-grained classification of leafroll disease infection severity. However, the diagnosis of leafroll disease severity is challenging 
due to the imbalanced data distribution of different infection levels and categories in UAV remote sensing images. 

[Method] A novel method for diagnosing leafroll disease severity was developed at a canopy scale using UAV remote sensing tech- 
nology and deep learning. The main challenge of this task was the imbalanced data distribution of different infection levels and catego- 
ries in UAV remote sensing images. To address this challenge, a method that combined deep learning fine-grained classification and 
generative adversarial networks (GANs) was proposed. In the first stage, the GANformer, a Transformer-based GAN model was used, 
to generate diverse and realistic virtual canopy images of grapevines with different levels of leafroll disease severity. To further ana- 
lyze the image generation effect of GANformer. The t-distributed stochastic neighbor embedding (t-SNE) to visualize the learned fea- 
tures of real and simulated images. In the second stage, the CA-Swin Transformer, an improved image classification model based on 
the Swin Transformer and channel attention mechanism was used, to classify the patch images into different classes of leafroll disease 
infection severity. CA-Swin Transformer could also use a self-attention mechanism to capture the long-range dependencies of image 
patches and enhance the feature representation of the Swin Transformer model by adding a channel attention mechanism after each 
Transformer layer. The channel attention (CA) mechanism consisted of two fully connected layers and an activation function, which 
could extract correlations between different channels and amplify the informative features. The ArcFace loss function and instance nor- 
malization layer was also used to enhance the fine-grained feature extraction and downsampling ability for grapevine canopy images. 
The UAV images of wine grape vineyards were collected and processed into orthomosaic images. They labeled into three categories: 
healthy, moderate infection, and severe infection using the in-field survey data. A sliding window method was used to extract patch im- 
ages and labels from orthomosaic images for training and testing. The performance of the improved method was compared with the 
baseline model using different loss functions and normalization methods. The distribution of leafroll disease severity was mapped in 
vineyards using the trained CA-Swin Transformer model. 

[Results and Discussions] The experimental results showed that the GANformer could generate high-quality virtual canopy images of 
grapevines with an FID score of 93.20. The images generated by GANformer were visually very similar to real images and could pro- 
duce images with different levels of leafroll disease severity. The T-SNE visualization showed that the features of real and simulated 
images were well clustered and separated in two-dimensional space, indicating that GANformer learned meaningful and diverse fea- 
tures, which enriched the image dataset. Compared to CNN-based deep learning models, Transformer-based deep learning models had 
more advantages in diagnosing leafroll disease infection. Swin Transformer achieved an optimal accuracy of 83.97% on the enhanced 
dataset, which was higher than other models such as GoogLeNet, MobileNetV2, NasNet Mobile, ResNet18, ResNet50, CVT, and 
T2TViT. It was found that replacing the cross entropy loss function with the ArcFace loss function improved the classification accura- 
cy by 1.50%, and applying instance normalization instead of layer normalization further improved the accuracy by 0.30%. Moreover, 
the proposed channel attention mechanism, named CA-Swin Transformer, enhanced the feature representation of the Swin Transform- 
er model, achieved the highest classification accuracy on the test set, reaching 86.65%, which was 6.54% higher than using the Swin 
Transformer on the original test dataset. By creating a distribution map of leafroll disease severity in vineyards, it was found that there 
was a certain correlation between leafroll disease severity and grape rows. Areas with a larger number of severe leafroll diseases 
caused by Cabernet Sauvignon were more prone to have missing or weak plants. 

[Conclusions] A novel method for diagnosing grapevine leafroll disease severity at a canopy scale using UAV remote sensing tech- 
nology and deep learning was proposed. This method can generate diverse and realistic virtual canopy images of grapevines with dif- 
ferent levels of leafroll disease severity using GANformer, and classify them into different classes using CA-Swin Transformer. This 
method can also map the distribution of leafroll disease severity in vineyards using a sliding window method, and provides a new ap- 


proach for crop disease monitoring based on UAV remote sensing technology. 


Key words: UAV remote sensing; deep learning; generate adversarial networks; Swin Transformer; leafroll disease of wine grape; data 


augmentation; attention mechanism 
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